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Повышение быстродействия метода 
гибридной нечеткой кластеризации 

за счет динамического сжатия размерности 
карты Кохонена 


В статье предложен модифицированный алгоритм гибридной нечеткой кластеризации $ЕСМ, в котором 
применяется динамическое сжатие размерности карты Кохонена, что позволяет снизить время обучения. 
Представлены экспериментальные результаты применения предложенного алгоритма для кластеризации 
низкоконтрастных полутоновых медицинских изображений. 


Введение 


В настоящее время при обработке данных приходится часто сталкиваться с 
необходимостью выполнения кластеризации, для осуществления которой разработано 
множество различных методов. Однако решение этой задачи часто осложняется 
такими факторами, как большой объем исходных данных и отсутствие априорных 
сведений о скрытых в них зависимостях. Первый фактор может накладывать на 
используемые методы кластеризации ограничения, связанные с быстродействием, а 
негативное влияние второго фактора обусловлено неизвестным числом кластеров, 
что является важнейшим управляющим параметром у большинства алгоритмов и 
неоднозначностью разделения исходных данных. 

Таким образом, интерес представляют методы кластеризации, позволяющие: 

— осуществлять подстройку числа кластеров в процессе работы; 

— учитывать неоднозначность разделения исходных данных между кластерами, 
что присуще, например, нечетким системам; 

— использовать самоорганизующиеся алгоритмы. 

Одним из способов подстройки числа кластеров в процессе работы является 
задание их избыточного числа с дальнейшим уменьшением их количества при обучении. 
Однако этот подход приводит к существенному возрастанию времени кластеризации, что 
неприемлемо, особенно при обработке данных в реальном режиме. 

Следовательно, интерес представляют такие алгоритмы кластеризации, которые 
позволяют, с одной стороны, обходиться без жесткого задания числа кластеров, 
учитывать неоднозначность разбиения данных и обучаться без учителя, а с другой 
стороны, — иметь компенсационные механизмы, направленные на снижение негативного 
влияния от возрастания вычислительных затрат в случае введения избыточного числа 
кластеров. 

В настоящее время существуют методы кластеризации, которые удовлетво- 
ряют ряду из приведенных выше требований. Примером таких методов являются 
нечеткие алгоритмы, позволяющие учитывать неоднозначность разбиения исходных 
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данных между кластерами. Одним из активно применяемых методов нечеткой класте- 
ризации является алгоритм ЕСМ (Ри72у с-теап$), что связано как с его простотой, 
так и с достаточным для большинства задач уровнем чувствительности. При выпол- 
нении нечеткой кластеризации вводятся понятия нечетких кластеров и функции 
принадлежности объектов к ним, изменяющейся на отрезке [0,1], что позволяет оце- 
нить степень принадлежности объекта к тому или иному кластеру [1]. Однако не- 
достатком алгоритма ЕСМ является необходимость задания неизменного числа нечетких 
кластеров. 

Другим часто используемым в настоящее время подходом к решению задачи кла- 
стеризации является применение нейронных сетей, обучаемых без учителя. Примером 
такой сети может служить карта Кохонена. При ее использовании задается двумерная сетка 
из нейронов, веса которых меняются в процессе обучения. Изменение происходит как у 
весов нейрона-победителя (определяется на основании минимума Евклидова расстояния 
до векторов исходных данных), так и у соседних нейронов [2]. Однако недостатками этого 
подхода является отсутствие учета неоднозначного разделения данных между нейронами в 
явном виде и необходимость задания размерности сети перед началом обучения. 


Постановка задачи 


Перспективным подходом являются нейро-фаззи алгоритмы, представляющие собой 
объединение нечеткой кластеризации и нейронной сети в пределах одного метода. 
Примером реализации такого подхода может служить алгоритм гибридной нечеткой 
кластеризации ЕСМ, представленный в работе [3]. Применение этого метода позволяет 
повысить чувствительность кластеризации и уменьшить время ее выполнения. Однако 
базовый алгоритм зЕСМ также требует задания начального значения неизменного числа 
нечетких кластеров. В работе [4] была предложена модификация алгоритма ЕСМ, в 
которой применяется динамическое сжатие функции принадлежности, что приводит к 
уменьшению их числа. Однако такой подход требует, чтобы начальное число нечетких 
кластеров было задано с избытком, позволяющим выполнить их последующее динами- 
ческое уменьшение. Это приводит к повышению вычислительной нагрузки, что особенно 
заметно при увеличении числа нечетких кластеров перед применением сети Кохонена. 

Целью данной статьи является снижение временных затрат на работу метода 
гибридной нечеткой кластеризации $ЕСМ, что достигается благодаря его модификации за 
счет двухэтапного динамического сжатия размерности карты Кохонена. 


Решение задачи 


Предложенный модифицированный метод гибридной нечеткой кластеризации 
ЗЕСМ состоит из следующих шагов: 
1. Инициализация числа кластеров с, значения т (экспоненциальный вес нечет- 


кой кластеризации), начальных значений центров нечетких классов У т (например, путем 


равномерного заполнения значениями векторов исходных данных). 
2. Формирование начальных значений весов нейронов карты Кохонена, раз- 
мерность которой выбирается равной [№*с,|, где № - коэффициент увеличения 


количества кластеров (рекомендуемые значения — 2 или 4). Каждый новый центр 
нечетких кластеров получается на основе значений из матрицы т центров пре- 


дыдущей итерации методом пропорционального распределения [5]. 
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Вычисляется матрица Евклидовых расстояний в д-мерном пространстве между 
нечеткими кластерами. 

Производится упорядочение центров кластеров, в результате чего формируется 
вектор 4, содержащий расстояния между соседними центрами. 

Между каждой парой центров нечетких кластеров формируются новые центроиды 
по следующему алгоритму: 

а) вычисляется вектор Д: 


#1 #1 . 
д; = |= | — = уе Е {1.....с-П,7Е\.....91, (1) 


где 4 - количество информативных признаков, описывающих каждый экзем- 
пляр данных, 


6) значение № г уменьшается на 1, пока выполняются условия: 
№" >0и А р Име" + ] Я (2) 


причем каждый элемент вектора №“” содержит число новых центров кластеров 
между парами исходных центроидов. Эти значения прямо пропорциональны расстоянию 
между соседними исходными центрами: 


а Ч 
м" = (м-Гхсх К,К-+Т х| 1+ ес (3) 
Аа т Аа т 
где Ла „т - сумма элементов вектора 4, а ЛА вычисляется так: 


АЯ ах 2х Мжех №), (4) 


причем Чт — минимальный элемент вектора 4, а № ом — максимальный элемент 
вектора №”; 


и > > 
в) если № . > 0, то формируется очередной новый вектор центров |= } : 


(=). +, (м +6 ей. .Мхс}. (5) 


5от 71} дет 


В случае, когда Евклидово расстояние от / -го центра до одного из предшест- 
вующих ему Г. -—1 центроидов не превышает А4та ‚ этот центр удаляется из вектора 


О 
| . Это замечание касается и исходных центров кластеров. Таким образом про- 


исходит первоначальное уменьшение количества нейронов, количество которых не 
может быть меньше, чем с. 
3. Кластеризация исходных данных картой Кохонена, в процессе которой про- 
исходит динамическое сжатие размерности сети: 
3.1 Инициализация управляющих параметров нейронной сети. При этом в 


О 
качестве начальных значений весов нейронов используется векторы | . На ос- 


новании многочисленных экспериментальных исследований рекомендуется исполь- 
зовать следующие управляющие параметры: 

— в качестве функции соседства выбирать функцию Гаусса; 

— нейроны располагать в столбец; 

— формировать вектор радиусов влияния каждого нейрона из натуральных 
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чисел от = до 1, причем: 
0 0 
и =М /3, (6) 


где № ь — начальное количество нейронов; 
— количество шагов обучения 1 „„х выбирать равным длине вектора радиусов. 


3.2 Вычисление значения риах по следующим формулам: 


Обр: 
Ртах = о › (7) 
0 0 0 
Ртах (м } ам , (8) 


причем [\ о т — количество нейронов после предварительного сжатия, выполняемого 
согласно пунктам 6.1 - 6.4, 6.7, 6.8. При этом М, =с/2х №), а минимально до- 


пустимое число нейронов сти =С. 


3.3 Каждый шаг обучения карты Кохонена содержит следующие действия: 
3.3.1 попытка уменьшения числа нейронов, если: 


ие Рак: (9) 


где Г — номер текущей итерации обучения, причем 1< ах. При выполнении 


0 
сх ее 5 
сжатия М, = А ь ‚а си =с+ — | = В случае уменьшения коли- 
2хм№ 1 
п шах 
чества нейронов вычисляется значение я по формуле (6) и разность Ди = г! = я ь 


Если Аи > 0, то номер текущей итерации увеличивается на значение Ди; 

3.3.2 на основе Евклидовых расстояний для каждого экземпляра исход- 
ных данных определяется ближайший к нему нейрон (нейрон-победитель); 

3.3.3 происходит модификация весов нейронов-победителей и соседних с 
ними нейронов, определяемых с помощью выбранной функции соседства; 

3.3.4 переход к следующей итерации, если 1 < 1дах. 


4. — Получение новых значений центров нечетких кластеров и 


путем вы- 
бора с значимых центров из матрицы весов нейронов, полученной в результате 
обучения карты Кохонена. Этот выбор является нетривиальной задачей и оказывает 
влияние на чувствительность метода. 


5. _ Вычисление текущих значений функции принадлежности и: 


-. —1 


Ч 
й У (к № ть] К й | 
у. =  \1....,С | (10) 


а | 1/2 УТЕ {....,п} 
в: те 


Ир = 


где п — число экземпляров данных, а Хх - исходные данные. 
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6. Динамическое сжатие функции принадлежности на основе расстояний 
между центрами нечетких кластеров происходит итеративно по следующему алгоритму: 
6.1 определение матрицы расстояний в 4-мерном пространстве между 


центрами нечетких кластеров 4 и значений минимального ненулевого ат и 
0 С. 
максимального 4иах расстояний; 


6.2 автоматическое определение значений а! и Я. — минимально до- 


пустимых расстояний между центрами кластеров — на основе статистических характе- 
ристик и по изменению производной, соответственно. 


1 
па 
ар = + Уи а!) И (11) 
11 
4! = ши 0.5 хттах(а')}, (12) 
где йа среднее по вектору р который состоит из п элементов 40 


матрицы 4 0 ‚ удовлетворяющих условию: 


0 
па 

40 <а4° + У - о) И (13) 
= 

4° = та (а°,0.5х 4), (14) 


где 40 — среднее по матрице а °. Расстояние 4 - вычисляется следующим 
образом: 


а) на основании матрицы Я 0 формируется отсортированная по возрастанию 
последовательность расстояний; 

6) — для каждого элемента в последовательности вычисляется его производная 
по отношению к 1-у элементу и производится поиск минимального значения этой 
производной; 

в) значение 4 р вычисляется как среднее между элементом последователь- 


ности с минимальным значением производной и следующим за ним элементом; 
2 И 2 0 0 
6.3 выбор минимального (Чи) из расстояний Ча, Чл и ( пах — Чт )х М№., 
что позволяет избежать негативного влияния от использования слишком большого 
значения параметра №. , который может изменяться от 0 до 1, причем при значениях 
М№ с, больших 0.2, как правило, автоматически выбирается 4 й или Ч 2 . Если ати =0 


или не существует расстояния между двумя нечеткими кластерами, меньшего Чиа, 


то переход к пункту 6.9; 
6.4 изменение каждого центра кластера, отличного от двух выбранных: 


. ) = (”.. ) х(1- А. )+ ”. ) х (д) › (15) 


Аа (оке жа, = 5), (16) 
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где 4,5 — индексы выбранных для сжатия удаляемого и модифицируемого 
центров, соответственно; (| „;- Расстояние между выбранными центрами; (о) и 
расстояние между удаляемым и одним из оставшихся центров. По формуле (15) мод- 

ифицируются и центры Уи т 
6.5 изменение функции принадлежности и’; к каждому из кластеров для 


каждого из векторов исходных Данных: 


и; = шах(и,,х(1-А„)и,,х(А,)}, (17) 


где ид; - функция принадлежности к удаляемому кластеру; 


6.6 изменение функции принадлежности (путем выполнения нечеткой 
операции объединения) для двух выбранных центров кластеров, которое отобра- 
жается для модифицируемого центра. Затем происходит сжатие путем отбрасывания 
функций принадлежности удаляемого кластера; 

6.7 преобразованию, описанному в пункте 6.6, подвергаются векторы 


1—1 
центров нечетких кластеров У И Ут, причем изменение модифицируемого центра 


кластера происходит с помощью усреднения; 
6.8 если количество нечетких кластеров, полученных после сжатия, боль- 
ше, чем сии (как правило, равно 2), то переход к пункту 6.1, а иначе - к пункту 6.9; 
6.9 масштабирование полученной после сжатия функции принадлежности к 


нечетким кластерам для каждого экземпляра исходных Данных, чтобы удовлетво- 


С 
рялось условие Ули; =1. 
К=1 


7. Вычисление значений векторов центров нечетких кластеров У т ‚ которые 


будут использованы в начале следующей итерации: 


ГА и И й 77 
изв =| Хы)" Ху ГУ". (18) 
= 1 
8 — Если выполняются условия: 
[4 4 2 
р 1-1 
>. >. | | > и и 
Ар, (19) 
[6 
и | >2 или ЕЕ, (20) 


1 1-1 г 
где = — пороговое значение, а | , РЬ и в, РЕ 1 _ показатели Ксие-Биени 


и нечеткости текущей и предыдущей итераций соответственно, которые вычисляются по 
следующим формулам [6]: 


Г, = УУ(,, )" х У(х, ба | Их ( р (21) 


К 2 РЕ 
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гв =| ХУ: "п, (22) 


причем Ани -— минимальное расстояние между центрами нечетких кластеров, 


то выполняется переход к пункту 2. 

Таким образом, в предложенном методе кластеризации происходит двухэтапное 
сжатие размерности нейронной сети: предварительное — перед началом кластеризации 
картой Кохонена при формировании новых центров нечетких кластеров для повышения 
чувствительности, и динамическое — в процессе обучения. 

Экспериментальные результаты были получены при обработке различных 
низкоконтрастных изображений, в том числе медицинских, примером которых служат 
полутоновые снимки, представленные на рис. Та (спин-решетчатая Т1 релаксация ЯМР 
(ядерного магнитного резонанса) участка головного мозга) и рис. 2а (результаты 
томограммы). 

При кластеризации приведенных на рис. 1 аи 2 а изображений использовались 
следующие значения управляющих параметров: с =20 (выбиралось с запасом, чтобы 
благодаря динамическому сжатию функции принадлежности определить рекомен- 
дуемое количество нечетких кластеров); № =4; после применения карты Кохонена 
выбирались центры кластеров с максимальным количеством относящихся к ним 
(имеющих минимальное Евклидово расстояние) векторов исходных данных; №, = 0,5 


(приводит к автоматическому формированию минимально допустимого расстояния 
между кластерами при сжатии); сжатие выполнялось на основе матрицы Евклидовых 
расстояний. Визуализация результатов нечеткой кластеризации производилась на 
основе сравнения с исходными данными [7]. 

При кластеризации методом $ЕСМ снимка, приведенного на рис. Та, как без умень- 
шения числа нейронов (рис. 16), так и с предварительным снижением размерности ней- 
ронной сети (рис. 1в) и двухэтапным сжатием (рис. 1), не было выявлено существенных 
различий в результирующих изображениях, что свидетельствует о неизменном уровне 
чувствительности. Однако для получения изображений, приведенных на рис. 1в и 1г, 
было затрачено на 18 и 42% меньше времени, соответственно, чем на формирование 
изображения на рис. 16. Это достигалось благодаря снижению числа нейронов (в сред- 
нем, на 9 и 40% для изображений, представленных на рис. | ви 1 г, соответственно), что 
приводило к пропорциональному уменьшению количества итераций обучения сети 
Кохонена. 

При кластеризации методом $3ЕСМ снимка, приведенного на рис. 2а, как без 
уменьшения количества нейронов (рис. 26), так и с предварительным снижением 
размерности нейронной сети (рис. 2в), не было выявлено различий в полученных после 
обработки изображениях, что свидетельствует о неизменном уровне чувствительности. 
Однако применение двухэтапного сжатия (рис. 2г) позволило повысить чувствитель- 
ность за счет более четкого выделения гематомы и области ее влияния. При этом для 
получения изображений, приведенных на рис. 2 ви 2 г, было затрачено на 23 и 46% 
меньше времени соответственно, чем на формирование изображения на рис. 2 6. Это до- 
стигалось благодаря снижению числа нейронов (в среднем, на 7 и 39% для изобра- 
жений, представленных на рис. 2в и 2г, соответственно), что приводило к пропорцио- 
нальному уменьшению количества итераций обучения сети Кохонена. 
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Рисунок 1 — Кластеризация медицинского изображения: а — исходный снимок 

(256 х 256 пикселей); результаты кластеризации методом $ЕСМ: 6 — без уменьшения 
числа нейронов карты Кохонена; в — с первоначальным; г — двухэтапным сжатием 


Рисунок 2 — Кластеризация медицинского изображения: а — исходный снимок 
(204 х 201 пикселей); результаты кластеризации методом $ЕСМ: 6 — без уменьшения 
числа нейронов карты Кохонена; в — с первоначальным; г — двухэтапным сжатием 


Следует заметить, что эффект сжатия размерности карты Кохонена отчетливее 
заметен на начальных итерациях работы алгоритма $ЕСМ, пока количество нечетких 
кластеров еще не уменьшено. В рассмотренных примерах сжатие в этих случаях 
достигает 58 и 64% для одно- и двухэтапного сжатия соответственно, при класте- 
ризации изображения, представленного на рис. Та, и 30 и 70% соответственно для 
изображения, приведенного на рис. 2а. 


Выводы 


Благодаря осуществлению двухэтапного динамического сжатия размерности карты 
Кохонена в предложенном модифицированном алгоритме гибридной нечеткой класте- 
ризации $ЕСМ достигается существенное снижение временных затрат без потери чув- 
ствительности. При этом в некоторых случаях удается добиться повышения не только 
быстродействия, но и чувствительности за счет удаления несущественных нейронов. 
Эффект от уменьшения количества нейронов особенно заметен на первых итерациях 
обучения, пока не выполнено динамическое сжатие нечеткой функции принадлежности. 
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А.О. Егоров 

Пдвищення швидкодй в метод! г1бриднот неч!гко! кластеризацй за рахунок динам!1чного 
стиснення розмфност! карти Кохонена 

У статт! запропонований модификований алгоритм г1бридно! нештко! кластеризаци 5ЕСМ, в якому 
застосовуеться динам!чне стиснення розм!рност! карти Кохонена, що дозволяе знизити затрати часу 
на навчання. Представлен! експериментальн! результати застосування запропонованого алгоритму 
для кластеризаци низькоконтрастних нашвтонових медичних зображень. 


А.А. Уезогоу 

Тье Ре огтапсе Ппргоуетепе оЁ Фе Нубна Еи77у Сшуегто Ме®о4 Вазед оп Вупаписа| 
Сотргезз то оГ Копопеп ЗОМ Ойпепт$!юп 

ТЬ$ агис]е 4еа1$ у Ве дезсирНоп оЁ Фе то1еа Вубла Втту сазегте а]еогИт ЗЕСМ, \/сь 1$ изе4 
Коропеп ЗОМ айтепз1оп 4упаптса| сотаргез$ те, 10 4еПуег [еагише Ите 4есгеазшя. ТВе ехрегипета1 
тези!65 оЁ Фе аррПсайоп оЁ ргорозе4 а1хогилт ог 10\/-сопгаз( ВаШопе ппазе сазегис аге зВо\уп. 
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